❓Как PCA работает с пропущенными значениями в данных
Метод главных компонент (PCA) сам по себе не умеет обрабатывать пропущенные значения — ему нужны полные строки данных для вычисления ковариационной матрицы или проведения SVD.
Однако есть несколько способов обойти это ограничение:
🔹Удаление неполных строк (listwise deletion): самый простой вариант — убрать все строки с пропущенными значениями. Но это может сильно сократить объем данных и исказить результат, особенно если данные пропущены не случайно.
🔹Импутация: замена пропусков на среднее, медиану, значения ближайших соседей (KNN) или с помощью более сложных статистических моделей. После этого можно применять стандартный PCA. Качество результата сильно зависит от точности импутации.
🔹Expectation-Maximization PCA: специальная итеративная техника, которая попеременно оценивает пропущенные значения и обновляет компоненты PCA. Этот метод сложнее, но может дать более точные результаты, чем обычная импутация.
🔹Robust PCA / матричное дополнение: альтернативные методы, подходящие для больших и структурированных наборов данных. Они способны восстанавливать недостающие элементы с сохранением низкоранговой структуры, аналогичной PCA.
⚠️ Важно: любой из этих подходов может внести искажения. Если пропущено слишком много данных, или пропуски носят систематический характер, то результат PCA может быть некорректным.
❓Как PCA работает с пропущенными значениями в данных
Метод главных компонент (PCA) сам по себе не умеет обрабатывать пропущенные значения — ему нужны полные строки данных для вычисления ковариационной матрицы или проведения SVD.
Однако есть несколько способов обойти это ограничение:
🔹Удаление неполных строк (listwise deletion): самый простой вариант — убрать все строки с пропущенными значениями. Но это может сильно сократить объем данных и исказить результат, особенно если данные пропущены не случайно.
🔹Импутация: замена пропусков на среднее, медиану, значения ближайших соседей (KNN) или с помощью более сложных статистических моделей. После этого можно применять стандартный PCA. Качество результата сильно зависит от точности импутации.
🔹Expectation-Maximization PCA: специальная итеративная техника, которая попеременно оценивает пропущенные значения и обновляет компоненты PCA. Этот метод сложнее, но может дать более точные результаты, чем обычная импутация.
🔹Robust PCA / матричное дополнение: альтернативные методы, подходящие для больших и структурированных наборов данных. Они способны восстанавливать недостающие элементы с сохранением низкоранговой структуры, аналогичной PCA.
⚠️ Важно: любой из этих подходов может внести искажения. Если пропущено слишком много данных, или пропуски носят систематический характер, то результат PCA может быть некорректным.
Importantly, that investor viewpoint is not new. It cycles in when conditions are right (and vice versa). It also brings the ineffective warnings of an overpriced market with it.Looking toward a good 2022 stock market, there is no apparent reason to expect these issues to change.
A project of our size needs at least a few hundred million dollars per year to keep going,” Mr. Durov wrote in his public channel on Telegram late last year. “While doing that, we will remain independent and stay true to our values, redefining how a tech company should operate.
Библиотека собеса по Data Science | вопросы с собеседований from sg